用 于 处 理 不 努力 作答 的 标准 化 残 差 系列 方 
法 和 瘟 合 多 层 模型 法 的 比较 
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摘要 

文章 采用 模拟 研究 , 分 别 在 混合 多 层 模 型 假设 满足 和 违背 的 情境 下 ,比较 了 混合 多 层 模型 方 
法 与 标准 化 残 差 系列 方法 在 识别 不 努力 作答 和 参数 估计 方面 的 表现 。 结果 显示 :1) 不 存在 
不 努力 作答 或 其 严重 性 低 时 ， 各 方法 表现 接近 ; (2) 不 努力 作答 严重 性 高 时 ， 固 定 参数 迭代 
标准 化 残 差 法 普遍 更 优 , 混合 多 层 模 型 法 仅 在 假设 满足 且 两 种 作答 反应 时 差异 大 的 条 件 下 表 
现 较 好 。 建 议 实际 应 用 中 优先 选择 固定 参数 迭代 标准 化 残 差 法 。 

关键 词 不 努力 作答 ， 标 准 化 反应 时 残 差 ， 和 迭代 净化 ， 混 合 多 层 模 型 ， 贝 叶 斯 估计 


1 引 


Dll 


在 对 学 生 的 人 格 、 技 能 和 能 力 等 潜在 特质 进行 测量 时 , 最 主要 的 目的 是 基于 测验 信息 得 
到 学 生 潜在 特质 的 有 效 估计 值 。 然 而 , 在 实际 中 , 难免 有 学 生 在 测验 时 作出 不 努力 作答 Con- 
effortful response)， 为 测验 带 来 与 结构 无 关 的 污染 。 总 的 来 说 ， 不 努力 作答 具有 反应 时 短 、 

正确 率 低 、 提 供 的 心理 测量 学 信息 少 三 个 特征 《Wise, 2015; 2017)。 测 验 中 出 现 的 不 努力 作 
管 会 对 测验 信 效 度 造成 各 种 不 利 影响 。 首先 , 很 多 情况 下 被 试 的 能 力 值 会 被 低估 (Rios etal., 


2017; Wise, 2015; Wise & DeMars, 2006; Wise & Kingsbury, 2016)， 进 而 造成 群 组 分 数 的 差异 


(Borghans & Schils, 2012)。 其 次 ， 题 目 参 数 估 计 值 的 偏差 会 增 大 〈Wise & DeMars, 2006). 
第 三 , 如 果 不 同 子 群 体 中 不 努力 作答 的 比例 不 同 , 这 种 差异 还 可 能 导致 项 目 功能 差异 (Setzer 


et al., 2013 )。 第 四 ， 测 验 的 信息 量 、 信 度 会 出 现 偏差 (Wise & DeMars, 2006)。 第 五 ， 测 验 
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所 测量 的 结构 也 可 能 变化 ， 会 聚 效 度 出 现 偏差 (Wise & DeMars, 2006)。 最 后 ， 与 测验 有 关 
的 预测 变量 和 结果 变量 之 间 的 关系 ， 假 设 检验 得 到 的 结论 等 ， 都 可 能 出 现 偏 差 (Clark etal., 
2003)。 因此, 在 测验 (特别 是 低 利害 情境 下 测验 ) 的 数据 分 析 中 ， 有 必要 通过 科学 的 方法 ， 
处 理 不 努力 作答 ， 减 小 其 不 利 影响 ， 得 到 更 准确 的 参数 估计 结果 。 

不 努力 作答 的 处 理 主 要 包括 识别 并 降低 权重 和 在 模型 中 处 理 两 种 思路 。 识别 并 降低 权重 
是 指 在 数据 清理 时 首先 识别 不 努力 作答 ， 再 在 数据 分 析 时 降低 其 权重 (Ranger et al., 2019; 
Rios et al., 2017)。 降 低 权 重 部 分 最 极端 和 常用 的 方式 是 蔡 换 为 缺失 《〈e.g., Kohler etal., 2017; 
Rose, 2013)。 识别 部 分 较 经 典 的 方法 是 标准 化 残 差 法 。 该 方法 将 观测 反应 时 与 其 理论 分 布 比 
较 ， 以 识别 反应 时 异常 短 的 不 努力 作答 (Qian et al., 2016)。 标 准 化 残 差 法 的 优势 在 于 背后 有 
特定 的 理论 模型 (分布)， 不 需要 通过 观察 设 定 阐 值 ， 也 不 存在 无 法 找到 阔 值 的 特例 ， 可 以 
自动 化 大 批量 应 用 。 此 外 ，van der Linden 和 Guo (2008) 曾 提出 贝 叶 斯 残 差 法 ， 将 反应 时 观 
测 值 与 基于 作答 反应 和 反应 时 计算 的 后 验 预测 密度 比较 ,以 识别 不 努力 作答 。 该 方法 与 标准 
化 残 差 法 都 面临 着 参数 污染 严重 时 表现 差 的 问题 (Wang, Xu, Shang, & Kuncel, 2018). 最 近 ， 
针对 这 一 缺陷 ，Liu 和 Liu (2021) 采用 筛选 努力 作答 群体 估计 题目 参数 ， 固 定 题目 参数 并 
迭代 净化 的 策略 改进 标准 化 残 差 法 的 表现 , 提出 了 固定 参数 迭代 标准 化 残 差 法 , 并 得 到 了 较 


在 模型 中 处 理 主要 指使 用 混合 模型 ， 区 分 努力 作答 和 不 努力 作答 的 数据 ,并 分 别 采用 不 
同 的 模型 拟 合 (Molenaar et al., 2018; Wang & Xu, 2015; Wang, Xu, & Shang., 2018; Wise & 
DeMars, 2006)。 与 识别 并 降低 权重 的 两 阶段 方法 相 比 ， 混 合 模型 能 够 一 次 性 解决 不 努力 作 
答 识别 及 参数 估计 的 问题 。 并 且 ， 贝 叶 斯 估计 的 马尔 科 夫 链 蒙特 卡 洛 (Markov Chain Monte 
Carlo, MCMC) 算法 的 发 展 ， 较 好 地 解决 了 这 类 模型 参数 估计 的 问题 。 混 合 模型 中 最 有 代表 


性 的 方法 是 由 Wang 和 Xu (2015) 基于 van der Linden (2007) 的 多 层 模型 提出 的 混合 多 层 


模型 (mixture hierarchical model，MHM)。 它 的 主要 思想 是 根据 两 种 作答 行为 的 特点 ， 对 总 
体 的 作答 反应 模型 和 反应 时 模型 进行 分 解 。 模 拟 研究 证 明 ， 当 数据 中 同时 含有 努力 作答 与 不 
努力 作答 时 , MHM 相 比 于 传统 多 层 模型 能 够 得 到 更 准确 的 参数 估计 结果 (Wang & Xu, 2015)。 
Wang, Xu, Shang 和 Kuncel (2018) 还 采用 模拟 研究 ， 对 贝 叶 斯 残 差 法 和 MHM 进行 了 比 
较 。 结 果 表 明 MHM 在 正确 识别 率 和 错误 拒绝 率 上 表现 都 较 好 , 特别 是 当 异 常 作答 的 比例 较 
高 时 ,该 模型 的 优势 更 加 明显 。 后 来 的 研究 者 在 MHM 基础 上 又 进行 了 一 系列 拓展 研究 (Lu 
et al., 2020; Ulitzsch et al., 2020; Wang, Xu, & Shang., 2018)。 总 的 来 说 ，MHM 最 大 的 优势 在 


于 能 够 同时 完成 异常 反应 的 识别 和 模型 参数 的 估计 。 但 是 , 该 方法 主要 有 三 个 局 限 性 : 一 是 


包含 关于 不 努力 作答 的 正确 率 和 反应 时 分 布 的 强 假设 , 如 果 不 满 足 ， 可 能 无 法 得 到 准确 的 识 
别 结果 ; 二 是 不 努力 作答 比例 较 低 时 容易 出 现 问题 ， 例 如 ， 当 不 努力 作答 的 比例 较 小 或 者 样 
本 量 较 小 时 ， 有 时 很 难得 到 收敛 的 结果 CRanger etal., 2019); 三 是 计算 复杂 耗 时 长 。 总 的 来 
说 ， 关 于 混合 模型 的 研究 基本 上 都 以 Wang 和 Xu (2015) 的 混合 多 层 模型 为 基础 展开 ， 
此 ， 本 研究 也 关注 该 模型 和 标准 化 残 差 系列 方法 的 比较 。 

尽管 标准 化 残 差 法 和 混合 多 层 模 型 法 作为 两 种 处 理 思路 的 代表 , 具有 不 同 的 优 缺 点 和 适 
用 条 件 , 但 是 目前 对 这 两 类 方法 进行 系统 比较 的 模拟 和 应 用 研究 仍 较 少 , 且 选 用 的 残 差 法 没 


能 反映 该 方法 最 新 的 研究 进展 (Liu & Liu, 2021)。 虽然 Wang, Xu, Shang 和 Kuncel (2018) 
的 研究 对 贝 叶 斯 残 差 法 和 混合 多 层 模型 法 进行 了 比较 。 但 是 ， 该 研究 也 存在 一 些 局 限 性 。 首 
先 , 研究 中 设置 的 基于 残 差 模 型 产生 数据 的 情境 , 仅 违 背 了 混合 多 层 模型 中 关于 反应 时 模型 
的 假设 , 而 不 努力 作答 的 答对 概率 仍 符合 其 假设 , 因此 并 不 能 算 作 反应 时 和 作答 反应 均 违背 
其 假设 的 情况 。 其 次 ， 贝 叶 斯 残 差 法 本 身 计算 较 复 杂 且 在 实际 中 很 少 应 用 ， 此 外 ， 该 方法 与 
标准 化 残 差 法 同样 面临 在 数据 污染 严重 情况 下 表现 差 的 问题 新 的 固定 参数 迭代 标准 化 残 差 
法 Liu & Liu, 2021) 相对 于 贝 叶 斯 残 差 法 计算 和 原理 都 更 为 简单 ， 其 能 否 弥补 传统 方法 的 
缺陷 ， 得 到 与 MHM 相近 其 至 更 好 的 结果 ?由 于 固定 参数 迭代 标准 化 残 差 法 相 比 MHM 前 
提 假 设 较 少 ， 其 是 否 具 有 更 好 的 稳健 性 ， 也 是 方法 的 理论 和 实践 研究 关注 的 焦点 。 目 前 ， 尚 
未 有 研究 系统 比较 标准 化 残 差 系 列 方法 和 混合 多 层 模 型 法 。 因此 , 两 类 方法 在 不 同 条 件 下 的 
表现 和 效率 ， 是 本 研究 关注 的 主要 问题 。 

本 文 首 先 回顾 了 3 种 标准 化 残 差 法 和 Wang 和 Xu (2015) 的 混合 多 层 模型 法 ， 然 后 分 
别 构造 了 产生 数据 完全 符合 、 反 应 时 和 作答 反应 均 不 符合 混合 多 层 模型 假设 的 两 种 
用 模拟 研究 的 方法 , 在 不 同 条 件 下 对 两 类 方法 识别 和 参数 估计 结果 的 准确 性 进行 比较 ， 以 期 
能 够 对 各 方法 的 优 缺 点 和 适用 范围 有 更 深入 的 认识 , 为 实际 应 用 者 提供 方法 选择 的 建议 。 另 
外 , 研究 还 将 两 类 方法 应 用 于 一 项 测验 的 实际 数据 ,对 模拟 研究 的 结果 进行 了 进一步 印证 与 
补充 。 


= 


青 境 。 采 


2 标准 化 残 差 系列 方法 


原始 标准 化 残 差 法 〈original standard residual method, OSR) 首先 基于 原始 数据 ， 应 用 
van der Linden (2007) 的 多 层 模型 估计 参数 。 该 模型 包括 两 个 水 平 , 第 一 水 平 是 测量 模型 ， 


包括 作答 反应 部 分 的 IRT (Item response theory) 模型 : 


exp (a;(9;—b;)) 


P(Y; = 1161) = Fe cae’ 


(1) 
和 反应 时 部 分 的 标准 对 数 正 态 分 布 模型 : 

In(ti;)|ti ~ N(B; — ti a7’), (2) 
其 中 ，P(Yij = 1|9;) 表 示 被 试 i (i=1,.…., 了 在 题目 站 G=1,..,0 上 正确 作答 的 概率 ，tij 表 
示 被 试 i 在 题目 i 上 的 反应 时 ，aj 和 bj 分 别 是 题目 j 的 区 分 度 参数 和 难度 参数 ，Pj 表 示 题 目 j 
的 时 间 密 度 参数 ，aj 表 示 题 目 j 的 时 间 区 分 度 参 数 ，NL(.) 表 示 正 态 分 布 ，9; 和 Ti 是 被 试 i 的 能 
力 参 数 和 速度 参数 。 
在 第 二 水 平 (个 体 水 平 )， 假 设 被 试 参数 (9;, Ti) 服 从 二 元 正 态 分 布 ， 能 力 和 速度 参数 的 
均值 为 (kg, kc)， 能 力 参 数 的 方差 为 08， 速 度 参数 的 方差 为 o2， 能 力 和 速度 参数 的 协 方差 为 


Ogre 


然后 ， 计 算 被 试 i 在 题目 i 上 的 标准 化 反应 时 残 差 


êj = â; (mn(ty) — (Â; -ti)). (3) 
根据 标准 化 反应 时 残 差 服从 标准 正 态 分 布 ejj~N(0,1) 进 行 判 断 ， 基 于 显著 性 水 平 为 0.05 
的 标准 正 态 分 布 左 侧 检 验 ， 如 果 6;; <-1.645， 则 认为 被 试 i 在 题目 i 上 是 不 努力 作答 (Qian 
et al., 2016). 
当 数 据 污染 严重 时 ， 为 改进 OSR 对 题目 参数 估计 不 准确 的 问题 ， 固 定 参数 标准 化 残 差 
法 (conditional estimate standard residual, CSR) 建议 首先 通过 混合 模型 ， 筛 选 努力 作答 群体 ， 
并 基于 该 群体 获得 较 准 确 的 题目 参数 估计 结果 。 然 后 将 题目 参数 固定 ， 对 被 试 参数 进行 条 件 


获 
估计 。 最 后 ， 基 于 这 些 参数 估计 结果 ， 应 用 OSR 识别 不 努力 作答 (Liu etal., 2020). 


定 参 数 迭 代 标 准 化 残 差 法 (conditional estimate with fixed item parameters standard 


residual method using iterative purifying procedure, CSRI) 在 CSR 的 基础 上 不 断 应 用 人 迭代 净 
化 过 程 ， 提 高 被 试 参数 估计 准确 性 ， 以 适用 于 数据 污染 严重 的 情况 (Liu & Liu, 2021). 

在 使 用 OSR, CSR 和 CSRI 之 后 ， 需 将 识别 出 的 不 努力 作答 记 为 缺失 ， 基 于 van der 
Linden (2007) 的 多 层 模 型 重新 估计 所 有 参数 值 。 


3 混合 多 层 模 型 法 


混合 多 层 模型 (MHM) 根据 努力 作答 和 不 努力 作答 的 特点 ， 对 总 体 的 作答 反应 模型 和 


反应 时 模型 作 分 解 (Wang & Xu, 2015). 


在 作答 反应 模型 部 分 ， 假 设 被 试 i 在 题目 i 上 答对 的 概率 为 

P(Y; = 1|Ai) = (1— Ai)P(Y = 1A; = 0) + AP (Yy = 1|Ai = 1), (4) 
其 中 , 4ij 是 表示 作答 行为 分 类 的 潜 变 量 , 4i; = 1 表示 被 试 i 回 答题 目 j 是 不 努力 作答 , Aij = 
0 表示 是 努力 作答 。 如 果 4i; = 0， 可 使 用 两 参数 logistice (2PL) 模型 预测 努力 作答 的 答对 概 
率 HA (1))。 如 果 被 试 i 回答 题目 j 是 不 努力 作答 Ay = 1)， 则 答对 概率 是 gj。 即 


在 反应 时 模型 部 分 ， 假 设 对 于 被 试 i 和 题目 j， 观 察 到 的 反应 时 78， 可 以 表示 为 
TOS 一 (1 ae Ay) Ti + Ai Cj, (6) 


其 中 ，Tij 表 示 被 试 i 努力 作答 题目) 所 需要 的 时 间 ，Cij 表 示 被 试 i 不 努力 作答 题目 j 所 需要 
的 时 间 。 努 力作 答 的 反应 时 服从 对 数 正 态 分 布 ( 见 公式 2))。 假 定 不 努力 作答 的 反应 时 也 
服从 对 数 正 态 分 布 


In(C;;) ~N(uc 02), (7) 
EH, wu RRABAVES RON MT BUA A NE, PRRD. 


在 实际 中 ， 不 努力 作答 部 分 模型 所 包含 的 强 假设 可 能 会 遭 到 违背 。 有 具体 表现 在 ， 第 一 ， 
该 模型 假设 异常 作答 的 正确 率 为 9j， 即 所 有 被 试 在 同一 道 题 上 不 努力 作答 的 答对 概率 是 相 
同 的 。 但 是 Feinberg 和 Jurich (2018) 发 现 , 不 同 能 力 水 平 被 试 在 相同 题目 上 不 努力 作答 的 
正确 率 不 同 。 第 二 ， 该 模型 假设 不 努力 作答 行为 的 反应 时 服从 均值 和 标准 差 恒定 的 对 数 正 
态 分 布 。 然 而 实际 中 不 努力 作答 的 反应 时 可 能 和 被 试 因素 〈 例 如 , 学业 能 力 、 作 答 速 度 等 ) , 


或 者 题目 因素 〈 例 如 ， 题 目 位 置 ， 题 型 等 ) 相关 (e.g., Molenaar et al., 2018). 


4 研究 一 : 标准 化 残 差 系列 方法 与 混合 多 层 模型 法 比较 的 模拟 研究 


4.1 研究 方法 


4.1.1 研究 设计 


模拟 研究 共 含 两 种 情境 。 情 境 1， 数 据 符合 混合 多 层 模型 假设 ;情境 2， 不 努力 作答 的 
反应 时 和 作答 反应 均 不 符合 混合 多 层 模 型 假设 。 每 种 情境 都 采用 混合 实验 设计 ,组 内 变量 为 
OSR, CSR, CSRI 和 MHM. 

对 于 情境 1， 组 间 变 量 有 三 个 : (1) 不 努力 作答 规模 〈r， 含 有 不 努力 作答 的 被 试 所 占 
比例 ): 0%, 20%, 40%; (2) 不 努力 作答 严重 性 (x??*， 含 有 不 努力 作答 被 试 的 不 努力 作 
题目 比例 ): 低 (rpon~ U(0,0.25))， 高 (n~ U(0.5,0.75)); G) 两 种 作答 反应 时 差异 


IX 


(dgr， 不 努力 作答 与 努力 作答 的 反应 时 差异 ): 小 ， 大 。 不 努力 作答 规模 r = 0% 表 示 所 有 
被 试 在 所 有 题目 上 均 努 力作 答 , 设置 该 水 平 是 为 了 考察 在 没有 不 努力 作答 的 条 件 下 , 各 方法 
可 能 存在 的 超 识别 问题 。 根 据 x 和 nx?07 的 组 合 ， 生 成 数据 中 不 努力 作答 的 比例 覆盖 了 0%, 
2.5%, 5%, 12.5% 和 25% 几 种 情况 。 组 间 变 量 共 形 成 2x2x2+1 = 9 种 实验 条 件 。 

对 于 情境 2， 由 于 不 努力 作答 的 反应 时 基于 残 差 模型 生成 ， 无 法 从 整体 上 控制 两 种 作答 
反应 时 均值 的 差异 ， 因 此 不 考虑 dar。 另 外 , r= 0% 的 数据 产生 方式 与 情境 1 完全 相同 。 
此 ， 情 境 2 中 考虑 的 组 间 变 量 包 括 : (1) m: 20%, 40%; PO": 低 ， 高 。 组 间 变 量 共 形成 
2x2=4 种 实验 条 件 。 


参照 前 人 研究 ， 模 拟 研 究 的 样本 容量 固定 为 2000， 题 目 数 固定 为 30 (Wang & Xu, 2015; 


Wang, Xu, & Shang., 2018; Wang, Xu, Shang, & Kuncel, 2018). 
4.1.2 数据 生成 


题目 参数 产生 值 的 分 布 为 ajy~U(1,2.5)， bj~N(0,1), aj~U(1.5,2.5), B;~U(—0.2,0.2). 


这 些 分 布 的 选择 保证 了 产生 的 作答 反应 和 反应 时 与 真实 数据 类 似 〈van der Linden, 2007; 


Wang & Xu, 2015; Wang, Xu, Shang, & Kuncel, 2018 )。 被 试 参数 Ort) 产生 于 二 元 正 态 分 
布 ， 两 个 参数 的 均值 都 是 0， 方差 分 别 为 1 和 0.25， 协 方差 为 0.25。 采 用 这 种 方式 ， 能 够 保 
证 9; 和 Ti 的 相关 固定 为 中 等 水 平 , 即 高 能 力 被 试 倾 向 于 作答 速度 较 快 (Wang & Xu, 2015; Wang, 


Xu, & Shang., 2018; Wang, Xu, Shang, & Kuncel, 2018 )。 下 面 分 不 同情 境 介 绍 数 据 生 成 的 具体 


方式 。 
(1) 情境 1 

首先 ， 利 用 题目 参数 和 被 试 参 数 的 真 值 ， 基 于 van der Linden (2007) 的 多 层 模型 模拟 
生成 努力 作答 的 作答 反应 和 反应 时 。 然 后 生成 不 努力 作答 数据 ， 包 含 以 下 步骤 :(a) 基 于 x 
选 出 相应 数量 的 被 试 。 因 为 速度 较 慢 的 被 试 倾向 于 猜测 作答 〈 不 努力 作答 )， 因 此 ， 从 真实 
速度 Tt; 最 低 33% 的 被 试 中 随机 选择 60% 的 被 试 ,中 间 34% 的 被 试 中 随机 选择 30% 的 被 试 ， 
最 高 33% 的 被 试 中 随机 选择 10% 的 被 试 ， 作 为 含有 不 努力 作答 的 被 试 群体 (Wang, Xu, & 
Shang., 2018); (b) 由 于 不 努力 作答 可 能 随机 发 生 在 任何 题目 上 (Pastor et al., 2019)， 根 据 
To ， 对 于 中 的 被 试 随机 选择 相应 数量 的 不 努力 作答 (Wang, Xu, & Shang., 2018); Ce) 对 
所 有 不 努力 作答 ， 参 考 Wang 和 Xu (2015)， 将 答对 概率 (gj) 均 设 定 为 0.25， 模 拟 产生 作 
答 反应 ; 按照 取 自 然 对 数 后 的 反应 时 服从 正 态 分 布 NCue 02) 模拟 产生 反应 时 (Liu & Liu, 


2021)， 对 两 种 作答 反应 时 差异 小 和 大 两 种 情况 ， 不 努力 作答 反应 时 取 对 数 后 的 分 布 分 别 服 
M N (-1,0.5°)All N(2,0.5)。 最 后 ， 使 用 不 努力 作答 的 作答 反应 和 反应 时 蔡 换 原 有 数据 中 相应 
位 置 的 数据 。 
(2) 情境 2 

情境 2 和 情境 1 的 区 别 在 于 生成 不 努力 作答 数据 的 方式 。 对 于 作答 反应 ， 基 于 Feinberg 
和 Jurich (2018) 的 发 现 ， 不 同 能 力 水 平 被 试 快 速 猜测 的 正确 率 不 同 ， 能 力 高 的 被 试 正确 率 
高 于 能 力 低 的 被 试 。 因 此 ， 按 能 力 值 将 被 试 分 为 3 组 ， 分 别 为 能 力 值 小 于 -0.44， 能 力 值 介 于 
-0.44 到 0.44 之 间 ， 能 力 值 大 于 0.44〈 每 组 被 试 约 占 1/3) ,每 组 对 应 不 努力 作答 的 答对 概率 
分 别 为 0,0.25 和 0.5。 因 此 ， 情 境 2 不 符合 混合 多 层 模 型 关于 不 同 被 试 不 努力 做 答 答题 概率 
相同 的 假设 。 产 生 不 努力 作答 反应 时 的 步骤 为 (Wang, Xu, Shang, & Kuncel, 2018): (a) 基 


于 反应 时 服从 对 数 正 态 分 布 的 假设 ， 利 用 时 间 密 度 参 数 、 时 间 区 分 度 参数 的 真 值 ， 对 于 速度 


为 0 的 被 试 ,计算 每 道 题目 反应 时 取 自然 对 数 后 最 低 5% 的 临界 值 (e.g., 对 于 题目 j 为 P285)); 


(O) 对 于 题目 j 在 U (exp(—5),exp (P05) ) 的 区 间 内 随机 取 一 个 值 作为 不 努力 作答 的 反应 


时 。 此 时 不 努力 作答 的 反应 时 符合 残 差 模 型 , 可 以 被 看 作 整 个 反应 时 分 布 中 的 异常 值 ,但 是 ， 
与 情境 1 不同， 它们 的 分 布 不 满足 对 数 正 态 分 布 ， 因 此 不 符合 MHM 的 假设 。 

采用 蒙特 卡 洛 模拟 研究 的 方法 ， 使 用 R 软件 CR Development Core Team, 2009) 产生 两 
种 情境 不 同 条 件 下 的 作答 反应 和 反应 时 数据 ， 每 种 条 件 下 数据 重复 模拟 30 Ceg., Lu etal., 


2020; Wang, Xu, Shang, & Kuncel, 2018). 


4.1.3 参数 估计 


参考 前 人 研究 (Lu et al., 2020; Wang & Xu, 2015; Wang, Xu, & Shang, 2018; Wang, Xu, 


Shang, & Kuncel, 2018)， 研 究 应 用 贝 叶 斯 框架 下 基于 Gibbs 抽样 的 MCMC 算法 估计 参数 后 
验 分 布 , 进而 计算 后 验 均 值得 到 参数 的 点 估计 值 。 这 一 过 程 利用 JAGS4.3.0 软件 自 编 语句 实 


IL (Plummer, 2003). 


XIF MHM, 先 验 分 布 的 设置 参考 了 前 人 研究 (Wang, Xu, & Shang, 2018; Wang, Xu, Shang, 
& Kuncel 2018 ) 。 努 力作 答 部 分 题目 参数 的 先 验 分 布 为 : 


aj;~lognormal(0,1), bj~N (0,1), a?~lognormal(0,1),B;~N(0,1); 不 努力 作答 部 分 题目 参数 


的 先 验 分 布 为 gj~beta(2,10), Kc~N( 一 3,0.1), o2~Inv — y(10,0.1); 被 试 参数 采用 与 产生 值 相同 


的 分 布 。 对 于 OSR，CSR 和 CSRI， 应 用 van der Linden (2007) 的 多 层 模型 时 先 验 分 布 的 设 


置 与 MHM 中 努力 作答 部 分 模型 参数 的 先 验 分 布 一 致 。 迭 代 的 初始 值 在 每 个 参数 先 验 分 布 中 
随机 抽取 样本 得 到 。 经 过 前 期 试验 得 到 正式 研究 的 MCMC Jk {Ci BB. MCMC 链条 数量 
国定 为 2， 每 条 链 的 友 代 次 数 为 10000， 前 面 5000 次 作为 burn-in，thinning rate 固定 为 5。 

由 于 MHM 较为 复杂 , 试验 发 现在 原 有 设置 基础 上 即使 增加 迭代 次 数 , 收敛 情况 也 不 会 有 明 
显 改 变 ， 且 每 次 估计 时 间 已 长 达 9 小 时 ， 因 此 出 于 估计 效率 的 角度 ， 和 迭代 设置 参数 仍 保持 原 


有 设置 。 采 用 PSRF<1.1 作为 判断 每 条 链 收敛 的 标准 (Gelman & Rubin, 1992; Matzke et al., 


ral 


2017). 


4.1.4 评价 标准 


EL 


究 从 三 个 方面 对 两 种 不 同类 型 的 方法 进行 比较 。 
(1) 收敛 情况 
根据 PSRF 指标 ， 统 计 了 各 方法 下 各 参数 估计 的 收敛 比例 。 
(2) 识别 准确 性 
评价 识别 准确 性 的 指标 分 为 基于 不 努力 作答 的 正确 识别 率 (true positive rate, TPR) 和 错 
误 识别 率 (false discovery error, FDR). TPR 是 指正 确 识别 的 不 努力 作答 占 真正 不 努力 作答 
的 比例 , FDR 是 指 错误 识别 的 不 努力 作答 〈 即 真正 的 努力 作答 ) 占 所 有 识别 出 的 不 努力 作答 
的 比例 。 由 于 研究 目的 是 识别 不 努力 作答 , 因此 , TPR 越 高 , 说 明 识 别 出 的 不 努力 作答 越 全 ， 
越 有 利于 得 到 准确 的 参数 估计 结果 。 基 于 这 一 目的 ， 在 评价 识别 准确 性 时 ， 以 TPR 为 主要 
依据 。 另 外 ， 当 模拟 数据 中 不 存在 不 努力 作答 时 (x = 0%)， 无 法 计算 TPR， 而 FDR 始终 
为 1， 在 这 种 情况 下 计算 误 检 率 (false positive rate, FPR)， 即 错误 识别 出 的 不 努力 作答 占 所 
有 努力 作答 的 比例 ， 类 似 于 第 工 类 错误 概率 。 最 后 ， 计 算 了 各 方法 在 各 条 件 下 识别 出 的 不 努 
力作 答 占 所 有 作答 的 比例 (proportion, Pr). 
(3) 参数 估计 结果 准确 性 
研究 使 用 偏差 (bias) 和 误差 均 方 根 (RMSE) 评价 参数 估计 的 返 真 性 ， 计 算 公 式 如 下 


TE 


1 1 a(l 
bias = +S}, = Yh, (on — 04”), (8) 


2 40)? 
RMSE = S "pa (9) 


中 ，on 表 示 参 数 真 值 ， an (对 于 题目 参数 h=j， 对 于 被 试 


Ni 
4 


参数 h=i), HRNAA Re Aa) 或 者 被 试 数 量 HD, L=30 表示 每 种 条 件 下 的 重复 次 


4.2 模拟 研究 结果 


4.2.1 参数 收敛 结果 


OSR, CSR 和 CSRI 在 所 有 重复 中 所 有 参数 全 部 收敛 。MHM 存在 一 定 程 度 的 不 收敛 问 


题 。 各 条 件 下 MHM 不 收敛 的 比例 如 表 1 所 示 。 
表 1 各 条 件 下 MHM 不 收敛 百分比 (%) 
n ”hm der 作答 分 类 参数 (4) ”题目 参数 WASH Ail 


0% 0.05 0.00 0.00 0.05 
氏 小 15.83 0.00 0.00 14.80 

jiu: K 11.70 0.00 0.00 10.94 

高 小 11.10 0.00 0.00 10.38 

情境 1 大 12.11 0.00 0.01 11.33 
氏 小 12.88 0.00 0.00 12.04 

iia K 12.73 0.00 0.00 11.91 

高 小 9.30 0.00 0.00 8.70 

大 13.15 0.00 0.00 12.30 

ager 低 16.75 0.00 0.00 15.67 

ree 2 高 15.53 0.00 0.00 14.52 
氏 7.08 0.00 0.00 6.62 

高 11.93 0.00 0.00 11.15 


my 
F 


TE: A 表示 不 努力 作答 规模 ，n?%" 表 示 不 努力 作答 严重 性 ， 
合计 是 指 不 收敛 参数 占 所 有 估计 参数 的 百分比 。 

从 表 中 可 以 看 出 ,只 有 作答 分 类 参数 存在 不 收敛 问题 ,其 中 ,在 全 部 努力 作答 的 条 件 下 ， 
不 收敛 比例 最 低 , 为 0.05%, 在 x 为 20%, POR MAE FP, 不 收敛 比例 最 高 , 为 14.80%( 情 
境 1, drr 小 ) 和 15.67%( 情 境 2)。 整体 来 看 , 情境 2 中 不 收敛 百分比 要 大 于 情境 1 的 情况 。 
以 下 的 识别 准确 性 和 参数 估计 结果 准确 性 评价 指标 仅 针对 所 有 收敛 参数 计算 。 


drr 表 示 两 种 作答 反应 时 差异 , 后 同 。 


4.2.2 识别 准确 性 结果 


表 2 呈现 了 不 同 条 件 下 各 方法 的 识别 准确 性 结果 的 均值 。 从 表 中 可 以 看 出 , 当 不 含有 不 
努力 作答 时 ，MHM 估计 得 到 的 作答 分 类 参数 均 为 1 个 类 别 , 而 标准 化 残 差 系 列 方法 的 FDR 
约 为 5%。 从 TPR 来 看 ， 几 乎 所 有 条 件 下 CSRI 的 TPR 都 大 于 MHM。 在 大 部 分 条 件 下 ， 
MHM 的 TPR 均 最 低 。r?on 越 高 ，qar 越 大 ，CSRI 相对 其 他 残 差 法 的 优势 越 大 ，MHM 的 表 
现 也 越 来 越 好 。 总 的 来 看 , 情境 2 MHM 在 TPR 上 的 均值 小 于 情境 1， 标 准 化 残 差 系 列 方 


法 则 相对 稳定 。 各 条 件 下 MHM 的 FDR 均 最 小 ，CSRI 的 FDR 均 最 大 。MHM 所 识别 出 的 
不 努力 作答 的 比例 大 多 小 于 CSRI， 这 也 反映 在 该 方法 呈现 出 较 低 的 TPR 和 FDR. 
表 2 各 条 件 下 各 方法 识别 准确 性 指标 结果 


T 


Ha 元 mon dar AD OSR CSR CSRI MHM 
0% FPR 0.05 0.05 0.06 0.00 

TPR 0.59 0.59 0.69 0.39 

小 FDR 0.69 0.69 0.71 0.20 

低 Pr 0.05 0.05 0.06 0.01 

(0.025) TPR 0.91 0.91 0.97 0.87 

大 FDR 0.47 0.49 0.53 0.09 

20% Pr 0.04 0.04 0.05 0.02 

TPR 0.19 0.25 0.50 0.03 

小 FDR 0.48 0.54 0.43 0.08 

高 Pr 0.04 0.07 0.11 0.00 

(0.125) TPR 0.31 0.50 0.93 0.82 

K FDR 0.16 0.36 0.28 0.07 

情境 1 Pr 0.05 0.10 0.16 0.11 
TPR 0.55 0.55 0.65 0.51 

小 FDR 0.46 0.45 0.47 0.20 

低 Pr 0.05 0.05 0.06 0.03 

(0.050) TPR 0.87 0.87 0.94 0.91 

大 FDR 0.17 0.16 0.18 0.09 

40% Pr 0.05 0.05 0.06 0.05 

TPR 0.13 0.24 0.49 0.16 

小 FDR 0.23 0.31 0.23 0.10 

高 Pr 0.04 0.09 0.16 0.05 

(0.250) TPR 0.17 0.49 0.93 0.94 

x FDR 0.03 0.17 0.14 0.07 

Pr 0.04 0.15 0.27 0.25 

低 TPR 0.77 0.78 0.90 0.64 

nee FDR 0.52 0.53 0.55 0.10 

0% Pr 0.04 0.04 0.05 0.02 

e TPR 0.27 0.34 0.72 0.18 

rice FDR 0.17 0.35 0.24 0.01 

情境 2 i Pr 0.04 0.07 0.12 0.02 
we 低 TPR 0.70 0.69 0.82 0.73 
en FDR 0.22 0.21 0.22 0.11 

40% i Pr 0.04 0.04 0.05 0.04 

z: TPR 0.20 0.29 0.56 0.13 

one FDR 0.02 0.10 0.06 0.00 

i Pr 0.05 0.08 0.15 0.03 


YE: TPR 表示 正确 识别 率 ，FDR 表示 错误 识别 率 ，FPR 表示 误 检 率 ，Pr 表示 识别 出 的 不 努力 作 
答 占 所 有 作答 的 比例 。rzo" 一 列 中 括号 内 数字 表示 真实 不 努力 作答 的 百分比 。 加 粗 的 结果 表示 
每 种 条 件 下 TPR 最 高 的 结果 。 
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4.2.3 参数 估计 结 


表 3 


(KAA 


= 


、 表 4 和 表 5 分 别 展示 了 情境 1、 情 境 2 中 各 条 件 下 各 方法 得 到 的 参数 估计 准确 性 


结果 。 从 表 中 看 出 ， 当 不 含有 不 努力 作答 时 ，MHM 得 到 的 各 参数 估计 值 RMSE 普遍 较 小 ， 
标准 化 残 差 系列 方法 除了 高 估 时 间 区 分 度 参数 外 ， 其 他 参数 估计 值 RMSE 也 较 小 。 在 rpon 


FE 下 ， 各 方法 得 到 的 参数 估计 结果 准确 性 差异 不 大 ， 但 是 ， 除 了 r=40%，qdar 大 的 条 


义 


件 下 两 类 方法 得 到 的 时 间 区 分 度 参数 RMSE 较为 接近 ， 其 余 条 件 下 MHM 得 到 的 时 间 区 分 
度 参数 RMSE 均 明 显 小 于 标准 化 残 差 系列 方法 .总 的 来 说 , 方法 之 间 的 差异 主要 体现 在 rr” 


高 的 条 们 


EF, 当 qdgr 小 时 , CSRI 得 到 的 参数 估计 结果 准确 性 具有 一 定 优势 , “dep Kit}, CSRI 


和 MHM 得 到 的 参数 估计 结果 准确 性 都 具有 更 加 明显 的 优势 。 


表 3 情境 1 中 不 含 不 努力 作答 条 件 下 各 方法 参数 估计 准确 性 


Tea ER 万 法 OSR CSR CSRI MAM 
a -0.01 -0.01 -0.01 0.01 
b 0.00 0.00 0.00 0.00 
P a -0.21 -0.22 -0.26 0.00 
i B -0.07 -0.07 -0.08 0.02 
0 0.00 -0.01 -0.01 001 
-0.01 -0.01 -0.01 0.02 
a 0.11 0.11 0.11 0.10 
b 0.05 0.05 0.05 0.05 
a 0.22 0.22 0.27 0.03 
EME B 0.07 0.07 0.08 0.02 
0 0.29 0.29 0.29 0.28 
i 0.10 0.10 011 0.09 
TE: bias 表示 偏差 ， RMSE 表示 误差 均 方 根 ， 后 同 。 
表 4 情境 1 中 含有 不 努力 作答 条 件 下 各 方法 参数 估计 准确 性 
— z 
T 评价 标准 drr 小 大 小 
方法 OSR CSR CSRI MHM OSR CSR CSRI MHM OSR CSR CSRI MHM OSR CSR CSRI MHM 
a 0.05 0.05 004 003 0.01 0.01 000 002 024 024 020 0.20 020 Ol 0.04 003 
b -001 -0.01 0.01 0.01 0.01 -0.01 0.00 0.01 -02 012 009 -013 -013 0.08 -0.02 -0.03 
ee a 015 -015 019 0.01 -010 0.11 -0.14 -001 008 001 -016 024 024 020 021 0.05 
B -005 -005 0.06 0.01 0.04 004 005 002 0.09 0.06 000 013 013 010 005 0.03 
0 0.00 -0.01 0.01 0.01 0.01 -0.01 -0.01 -001 0.00 0.00 000 000 000 000 -001 -0.01 
a z 0.02 -001 0.01 0.02 0.02 0.02 0.01 0.02 0.02 ~0.01 0.01 0.02 0.02 0.02 0.01 0.02 
o a 0.13 0.13 0.12 0.12 0.11 0.11 0.11 0.11 039 038 031 036 033 028 0093 0413 
b 0.05 0.05 0.05 0.05 0.05 0.05 0.05 005 O17 016 03 O18 O14 O11 0.06 0.06 
ee a 0.15 0.15 0.20 0.04 0.11 0.11 0.15 0.04 012 006 O17 026 040 022 022 0.07 
B 0.05 0.05 0.06 0.02 0.04 0.04 0.05 0.02 0.09 006 002 013 «O18 O11 005 0.03 
0 0.30 0.30 0.30 0.29 0.29 0.29 0.29 029 4043 «2042 040 043 041 040 034 035 
á 011 0.11 0.11 0.10 0.10 0.10 0.10 0.10 030 029 022 033 045 039 017 022 
a 0.11 0.11 0.09 0.07 003 0.04 002 003 042 042 038 «9014 035 033 010 0.06 
b 003 -003 0.02 0.02 0.01 -0.01 0.01 001 -025 023 -0.19 -020 -0.22 -0.15 003 -0.02 
有 a -008 -008 -013 0.01 -0.02 -00 006 -002 030 O18 -006 034 0.72 047 -018 -001 
B -003 -0.03 0.04 0.01 0.02 -00 003 -002 024 O19 008 022 047 028 003 001 
0 0.00 0.00 0.01 0.01 0.01 -0.01 0.01 -001 0.00 0.00 000 000 000 000 000 -0.01 
see z -0.01 -0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 -0.01 0.02 0.02 -002 0.01 ~0.02 
: a 0.17 0.17 0.15 0.14 0.12 0.12 0.11 012 059 057 050 032 053 045 017 0.16 
b 0.07 0.07 0.06 0.06 0.06 0.06 0.05 0.06 032 029 «9023 024 027 «9019 0.07 0.06 
RMSE a 0.09 0.09 0.14 0.04 0.05 0.05 0.07 004 033 021 008 037 075 049 0.19 0.05 
B 0.03 0.03 0.04 0.02 0.02 0.02 0.03 002 025 019 008 022 047 028 003 0.02 
0 031 031 031 0.30 0.30 0.30 0.29 029 053 052 048 050 052 048 039 037 
á 011 011 011 011 0.10 0.10 0.10 010 039 036 028 037 06 049 021 018 


YE: 加 粗 的 表示 RMSE 相对 较 低 的 结果 。 


表 5 情境 2 中 各 条 件 下 各 方法 参数 估计 准确 性 


A a 低 高 
T HNE — E OSR CSR CSRI MAM OSR CSR CSRI MHM 


a 0.00 0.00 0.00 0.08 0.03 0.02 0.04 —0.08 

b 0.00 0.00 0.00 0.00 0.07 0.07 0.03 0.07 

bias a 0.09 0.10 0.14 0.01 0.28 0.19 —0.08 0.37 
B 0.04 0.04 0.05 0.01 0.15 0.12 0.01 0.18 

0 0.01 0.01 0.01 0.01 0.00 0.00 0.00 —0.01 

20% T 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 
a 0.11 0.11 0.11 0.14 0.17 0.17 0.14 0.18 

b 0.05 0.05 0.05 0.05 0.15 0.14 0.08 0.15 

RMSE a 0.10 0.10 0.15 0.04 0.30 0.21 0.10 0.38 
pb 0.04 0.04 0.05 0.02 0.15 0.12 0.02 0.18 

0 0.29 0.29 0.29 0.29 0.34 0.34 0.34 0.34 

T 0.10 0.10 0.10 0.10 0.39 0.37 0.23 0.41 

a 0.02 0.02 0.02 0.15 0.07 0.04 0.07 —0.12 

b 0.01 0.01 0.01 0.01 0.15 0.14 0.11 0.15 

bias a 0.00 0.01 —0.05 0.01 0.57 0.48 0.21 0.65 
B 0.01 0.01 0.02 0.01 0.38 0.32 0.18 0.41 

0 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 

40% T 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 
a 0.12 0.13 0.12 0.21 0.26 0.24 0.22 0.27 

b 0.06 0.06 0.05 0.05 0.27 0.25 0.17 0.29 

RMSE a 0.05 0.05 0.07 0.04 0.59 0.50 0.23 0.67 
B 0.02 0.02 0.03 0.02 0.38 0.32 0.18 0.41 

0 0.30 0.30 0.29 0.29 0.39 0.38 0.37 0.39 

T 0.11 0.11 0.10 0.11 0.51 0.47 0.36 0.54 


E: 加 粗 的 表示 RMSE 相对 较 低 的 结果 。 

从 表 5 可 以 看 出 , 在 情境 2 中 ，x?%" 低 的 条 件 下 , MHM 得 到 的 区 分 度 参 数 的 RMSE 大 
于 标准 化 残 差 系列 方法 ， 时 间 区 分 度 参 数 RMSE 小 于 标准 化 残 差 系 列 方法 ， 此 时 ，MHM 会 
高 估 区 分 度 参数 ，CSRI 会 高 估 时 间 区 分 度 参数 ， 在 ro" 高 的 条 件 下 ， 标 准 化 残 差 系 列 方法 
得 到 的 参数 估计 值 RMSE 整体 上 都 小 于 MHM, 并 且 z 越 大 ,CSRI 优势 越 明显 。 此外, MHM 
普遍 存在 低估 时 间 区 分 度 参数 和 时 间 密 度 参 数 的 问题 ， 在 x = 40%，z?o" 高 的 条 件 下 ， 还 存 
在 高 估 区 分 度 参数 和 难度 参数 的 问题 。 总 的 来 说 ，MHM 在 情境 2 中 的 表现 比 情境 1 差 ， 标 
准 化 残 差 系列 方法 具有 更 大 的 相对 优势 。 


ny 


5 研究 二 : 标准 化 残 差 系列 方法 与 混合 多 层 模 型 法 比较 的 实证 研究 


5.1 数据 和 设计 


研究 二 使 用 James Madison 大 学 开发 的 自然 界 管理 测验 测试 数据 ， 该 测验 主要 测试 了 学 
生 对 与 保护 环境 相关 的 管理 原则 、 问题 和 实践 应 用 的 了 解 程度 (Pastor et al.,2019)。 使 用 OSR, 
CSR，CSRI 和 MHM 对 不 努力 作答 进行 处 理 。 该 测验 采用 基于 网 络 的 方式 施 测 ， 测 量 了 环 


境 管理 原则 、 问 题 和 实践 知识 ， 属 于 低 利害 测验 。 测 验 长 度 为 50 题 ， 都 是 0/1 计 分 的 选择 


题 。 测 试 完成 后 ， 要 求 每 名 被 试 完成 一 个 关于 完成 测验 努力 程度 的 自 陈 量 表 。 自 陈 量 表 主 要 
包括 三 个 方面 内 容 : (1) 认真 完成 测验 重要 性 评价 ， 分 值 越 高 表示 重要 性 程度 越 高 ，(2) 完 
成 测验 努力 程度 评价 ， 分 值 越 高 表示 花费 的 努力 程度 越 高 ; (3) 随机 猜测 比例 ， 即 被 试 选择 
自己 在 完成 测验 时 随机 猜测 作答 题目 数量 的 百分比 ， 分 为 4 个 选项 (0% ~ 5%, 6% ~ 25%, 
26% ~ 50%， 大 于 50%)。 自 陈 量 表 的 结果 能 够 提供 不 努力 作答 识别 的 效 度 信 息 。 测 试 样本 
为 James Madison 大 学 2014 ~ 2015 年 秋季 和 春季 学 期 的 学 生 ， 共 1532 人 。 删 除了 在 作答 反 
应 、 反 应 时 上 总 缺失 比例 大 于 10% 的 被 试 ， 最 终 保 留 1367 人 。 应 用 OSR，CSR 和 CSRI 分 
别 识别 不 努力 作答 并 将 其 替换 为 缺失 ， 基 于 van der Linden (2007) 的 多 层 模型 估计 参数 。 
应 用 MHM 同时 完成 不 努力 作答 的 识别 和 参数 估计 。 各 模型 先 验 分 布设 置 与 模拟 研究 相同 。 


5.2 实证 研究 结果 


实证 研究 所 采用 的 数据 来 自 于 一 个 低 利 害 测验 , 并 且 测 验 长 度 较 长 , 预 估 可 能 出 现 较 严 
重 的 不 努力 作答 。 首 先 ，1367 名 学 生 选 择 随 机 猜测 比例 为 0% ~ 5%, 6% ~ 25%, 26% ~ 50% 
和 大 于 50% 的 学 生 比 例 分 别 为 27.07%，41.92%，22.02% 和 9.00%。 可 以 发 现 ， 大 部 分 学 生 
不 努力 作答 的 严重 性 程度 与 模拟 研究 中 不 努力 作答 严重 性 为 低 CrP" ~ 0(0,0.25)) 的 情况 
类 似 , 还 有 部 分 学 生 不 努力 作答 严重 性 大 于 这 个 条 件 。 其次, 发 现 所 有 被 试 在 所 有 题目 上 的 
对 数 反应 时 分 布 都 呈现 出 双 峰 分 布 的 特点 (Wang, Xu, Shang, & Kuncel, 2018)。 因 此 ， 数 据 
中 可 能 存在 略 严 重 的 不 努力 作答 现象 。 此 时 ， 各 方法 得 到 的 结果 差异 应 当 略 大 ， 采 用 CSRI 
或 MHM 可 能 是 较 好 的 选择 。 

MHM 参数 估计 不 收敛 比例 为 2.02%， 其 余 方法 参数 估计 全 部 收敛 。 后 面 结果 只 使 用 收 
HRSA. OSR, CSR, CSRI 和 MHM 识别 的 不 努力 作答 比例 分 别 为 4.69%，5.40%， 


6.58% 和 6.92%, CSRI 和 MHM 识别 出 的 不 努力 作答 比例 最 大 。 


5.2.1 识别 结果 的 反应 时 分 布 比较 


图 7 以 一 道 题目 为 例 , 展示 了 各 方法 识别 出 的 两 种 类 型 作答 的 对 数 反应 时 分 布 情况 。 从 
图 中 可 以 看 出 ，OSR，CSR 和 CSRI 识别 不 努力 作答 的 检验 力 依次 增强 。 例 如 ，OSR 识别 出 
的 两 种 作答 在 反应 时 短 的 第 一 个 峰 的 分 布 中 有 很 大 的 重合 ,而 CSRI 和 MHM 几乎 能 将 第 一 
个 峰 内 的 所 有 作答 识别 为 不 努力 作答 。 此 外 ，MHM 还 会 将 对 数 反应 时 较 大 的 个 别 作答 识别 
为 不 努力 作答 , 这 是 由 于 该 方法 假设 不 努力 作答 的 反应 时 服从 均值 和 标准 差 恒定 的 对 数 正 态 
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分 布 ， 如 果 估计 得 到 的 不 努力 作答 反应 时 标准 差 较 大 《本 例 中 人 =1.29)， 个 别 识别 出 的 不 努 


力作 答 可 能 具有 较 大 的 对 数 反 应 时 。 


= 不 努力 作答 = 不 努力 作答 
WO same sane 
2 4 2 4 
对 数 反 应 时 对 数 反 应 时 
50- 250 
200 
类 型 类 型 
= 不 努力 作 = 不 努力 作答 
WD sane DW sane 
2 4 2 4 
对 数 反 应 时 对 数 反 应 时 


1 实证 研究 各 方法 识别 出 的 两 种 作答 行为 在 题目 层面 反应 时 分 布 (以 48 题 为 例 ) 


5.2.2 识别 结果 的 效 度 验证 


为 了 对 各 方法 的 识别 结果 进行 效 度 验 说 


E， 将 各 方法 得 到 的 作答 层面 识别 结果 通过 RTE 


(response time effort, RTE) 指标 汇总 到 个 体 层面 ， 得 到 每 名 被 试 的 RIE 指标 。RTE 指标 的 
含义 是 每 个 被 试 努 力作 答 的 题目 比例 。 其 值 越 高 ， 说 明 被 试 努 力作 答 程 度 越 高 。 然 后 ， 将 各 
方法 的 RTE 指标 与 认真 完成 测验 重要 性 评价 、 完 成 测验 努力 程度 评价 的 分 数 求 相关 。 它 们 
与 RTE 指标 的 相关 越 高 , 说 明 方法 会 察 效 度 越 高 。 结 果 如 表 6 所 示 。 从 表 中 可 以 看 出 , OSR、 
CSR, CSRI 和 MHM 与 两 项 评价 的 相关 依次 增 大 ， 说 明 其 会 聚 效 度 依次 增 大 。 但 是 注意 到 
四 种 方法 得 到 的 RTE 指标 与 认真 完成 测验 重要 性 评价 相关 均 较 低 〈 低 于 0.1)。 说 明 RTE 指 
标 不 同 的 被 试 ,在 认真 完成 测验 的 重要 性 程度 评价 上 只 有 很 小 的 差异 .这 与 Pastor 等 人 (2019) 


使 用 同样 数据 得 到 的 结果 是 一 致 的 。 
表 6 实证 研究 不 同方 法 RTE 指标 与 认真 完成 测验 重要 性 评价 以 及 完成 测验 努力 程度 


评价 的 相关 
RTE 认真 完成 测验 重要 性 评价 完成 测验 努力 程度 评价 
OSR 0.055% 0.193** 
CSR 0.075** 0.238** 
CSRI 0.073** 0.271** 
MHM 0.087** 0.288** 


TE: * 表 示 在 0.05 水 平 显 著 ，** 表 示 在 0.01 水 平 显 著 。 

结合 RTE 指标 的 阔 值 ,可 以 区 分 努力 作答 和 不 努力 作答 的 被 试 。 基 于 前 人 研究 建议 (Rios 
于 保守 考虑 ， 将 RTE 阔 值 定 为 0.8。 然 后 统计 两 组 被 试 在 随机 猜测 比例 四 
个 选项 上 的 选择 分 布 情况 。 从 表 7 中 可 以 看 出 ， 努 力作 答 组 选择 随机 猜测 比例 大 于 50% 的 
人 数 比例 最 少 ， 不 努力 作答 组 选择 随机 猜测 比例 为 0-5% 的 人 数 比 例 最 少 ， 符 合 期 望 的 各 组 
特征 。 此 外 ，CSRI 和 MHM 识别 出 的 努力 作答 组 中 选择 随机 猜测 比例 大 于 50% 的 人 数 比例 
小 于 另外 两 种 方法 ， 选 择 随机 猜测 比例 为 0-5% 的 人 数 比例 大 于 另外 两 种 方法 ， 但 总 体 来 说 


et al., 2017) 3H 


co 


差异 不 大 。 
R 7 实证 研究 不 同 组 被 试 在 随机 猜测 比例 上 选择 的 人 数 百分比 (%) 
方法 分 组 0-5% 6-25% 26-50% 大 于 50% 

OSR 努力 作答 组 27.96 41.63 21.81 8.60 
不 努力 作答 组 9.23 47.69 26.15 16.92 
au 努力 作答 组 28.25 41.94 21.52 8.29 
不 努力 作答 组 10.11 41.57 29.21 19.10 
努力 作答 组 28.80 42.00 21.28 7.92 
不 努力 作答 组 8.55 41.03 29.92 20.51 
努力 作答 组 28.84 41.77 21.12 8.27 

MHM 
不 努力 作答 组 9.02 43.44 31.15 16.39 

为 了 进一步 考察 努力 作答 组 和 不 努力 作答 组 在 不 同 选项 上 的 分 布 是 否 存在 显著 差异 , 对 


其 进行 卡 方 检验 并 计算 了 效应 量 , 卡 方 检验 的 效应 量 采 
从 表 8 可 以 看 出 , 使 用 四 种 方法 识别 的 努力 作答 组 和 不 努力 作 管 组 , 在 随机 猜测 比例 上 的 选 
择 都 存在 显著 差异 , 并 且 , 使 用 CSRI 识别 得 到 的 分 组 在 选项 上 的 差异 大 于 MHM 大 于 CSR 
大 于 OSR。 这 也 可 以 看 作 方法 会 聚 效 度 的 男 一 个 证 据 。 总 的 来 说 ，CSRI 和 MHM 的 会 聚 效 
度 大 于 其 余 两 种 方法 。 

表 8 实证 研究 不 同 组 被 试 在 随机 猜测 比例 上 选择 的 卡 方 检验 及 效应 量 结果 


方法 卡 方 值 显著 性 效应 量 
OSR 13.86 0.003 0.20 


= 


| Cramer’s V 系数 (McHugh, 2013). 


CSR 
CSRI 
MHM 


5.2.3 估计 结果 的 比较 


当 数 据 中 存在 不 努力 作答 时 ， 使 用 原始 数 
残 差 系列 方法 与 MHM 能 够 在 大 部 分 情况 下 减 小 参数 估 
的 参数 估计 结果 与 基于 原始 数据 得 到 的 参数 估计 结果 之 
层 模型 估计 参数 作为 比较 的 基线 , 然后 计生 
相对 差异 (relative difference, RD) 和 相对 差异 均 方 术 
RRMSD)， 其 计算 公式 与 公式 (8) (9) 类 似 ， 区 别 在 于 使 月 


23.15 
38.72 
29.41 


0.000 
0.000 
0.000 


0.26 
0.34 
0.30 


会 得 到 有 偏差 的 估计 结果 ， 而 使 用 标准 化 


不 同方 法 得 至 


估计 值 代替 原 公 式 中 的 真 值 。 结 果 如 表 9 所 示 。 
表 9 实证 研究 不 同方 法 和 原始 数据 参数 估计 结果 比较 


计 的 偏差 。 为 了 考察 不 同方 法 得 到 
AI ARR, 首先 基于 原始 数据 应 用 多 
| 的 参数 估计 值 与 基线 参数 估计 值 的 


R (relative root mean square difference, 


基于 原始 数据 估计 得 到 的 参数 


RD RRMSD 
参数 

OSR CSR CSRI MHM OSR CSR CSRI MHM 
a 0.02 0.03 0.06 0.02 0.06 0.08 0.11 0.33 
b 0.05 0.07 0.12 0.17 0.10 0.14 0.21 0.28 
a —0.77 —0.84 —0.96 -1.14 0.82 0.90 1.02 1.20 
B —0.11 —0.12 —0.14 —0.02 0.12 0.14 0.16 0.10 
0 0.00 0.00 —0.01 —0.03 0.10 0.11 0.15 0.21 
T 0.00 0.00 0.00 0.09 0.15 0.15 0.20 0.21 


JE: RD 表示 相对 差异 ，RRMSD 表示 相对 差异 均 方 根 。 


从 表 中 看 出 , 对 于 区 分 度 参数 , 各 方法 与 原始 数据 得 到 的 估计 结果 相 比 都 几乎 没有 差异 。 
的 估计 结果 。 对 于 时 间 区 分 度 参 


对 于 难度 参数 ，CSRI 和 MHM 得 到 的 估计 值 小 于 原始 数 扫 
数 ， 各 方法 得 到 的 估计 结果 明显 大 于 原始 数据 的 估计 
对 间 密 度 参数 ， 标 准 化 残 差 系列 方法 得 到 的 估计 结果 大 于 原 


MHM>CSRI>CSR>OSR。 对 于 


结果 ， 并 且 差 异 程度 


始 数据 的 估计 结果 ， 并 且 差 异 程度 CSRI>CSR>OSR，MHM 与 原始 数据 的 估计 结果 相 比 几 
乎 没有 差异 。 各 方法 估计 得 到 的 被 试 参 数 几 乎 没有 相对 差异 。 此 外 ， 从 整体 上 看 MHM 和 
CSRI 的 相对 差异 均 方 根 也 大 于 其 它 两 种 方法 。 


根据 自 陈 量 表 关 于 随机 作答 比例 的 报告 结果 ， 不 努力 作答 严重 ! 
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EKA 


PERIA E pO” 


低 的 条 件 ， 又 根据 MHM 的 识别 结果 ， 努 力作 答 和 不 努力 作答 的 对 数 反 应 时 差异 为 1.529， 


大 于 模拟 研究 中 dgr 小 的 条 件 。 可 以 推测 , SKi 


条 件 。 结合 表 A, SBS 


符合 MHM Rit A 


non 这 


i 


none 


EWF FCS Sis BRIE RT Ft Pc} 


高 dar 大 的 


高 dar 大 时 ，MHM 和 CSRI 表现 都 优 于 


CSR, OSR. 而 实证 研究 通过 效 度 验证 , 证 明 CSRI 


和 MHM 都 能 够 得 到 较 有 效 的 识别 结 


并 且 参 数 估计 值 和 原始 数据 估计 结果 相 比 差异 最 大 。 这 与 我 们 对 数据 中 不 努力 作答 情况 的 预 


估 和 方法 选择 的 建议 也 是 一 致 的 。 


6 讨论 


6.1 方法 比较 


本 研究 采用 模拟 研究 和 实证 研究 相 结合 的 方法 , 对 这 两 类 方法 进行 了 比较 , 得 到 的 结果 


如 下 。 


从 收敛 情况 来 看 , 标准 化 残 差 系列 方法 由 于 采用 了 相对 较 简 单 的 多 层 模 型 , 不 存在 参数 
估计 不 收敛 的 问题 。 而 MHM 由 于 在 多 层 模型 的 基础 上 加 入 了 两 种 作答 的 混合 ， 要 多 估计 


FHINE U 表示 被 试 数 ，J 表示 题目 数 ，FJ 个 作答 分 类 潜 变 量 4;;，J 个 不 努力 作 


ay 


答对 概率 参数 gj ，2 个 不 努力 作答 反应 时 分 布 参数 we, ae ) , 当 样 本 量 很 大 或 题目 数 很 多 时 ， 
会 极 大 增加 待 估 参 数 的 数量 ， 造 成 不 容易 收敛 的 问题 。 尤 其 对 于 作答 分 类 参数 ， 该 问题 更 严 
重 。 除 此 之 外 ， 两 类 方法 的 估计 速度 也 不 同 。 笔 者 通过 模拟 实验 证 明 ， 随 着 测验 长 度 增 加 ， 
MHM 的 耗 时 明显 增加 ， 而 其 他 方法 耗 时 增加 相对 缓慢 。 例 如 ， 使 用 处 理 器 为 
Intel(R)Core(TM)i7-9700， 内 存 为 32GB 的 计算 机 分 析 数 据 ， 以 情境 1 Aa 40%, mpi, 
drr 大 的 条 件 为 例 ， 当 样本 量 为 2000， 测 验 长 度 为 10 时 ，OSR、CSR、CSRI 和 MHM 的 耗 
时 分 别 约 为 92 分 钟 、63 分 钟 、78 分 钟 和 240 分 钟 。 其 他 条 件 固定 ， 当 测验 长 度 增加 至 50 
题 时 ， 四 种 方法 的 耗 时 分 别 约 为 526 分 钟 、510 分 钟 、630 分 钟 和 1160 分 钟 。 同 等 条 件 下 ， 
即便 选用 标准 化 残 差 系列 方法 中 最 复杂 的 CSRI 完成 识别 和 参数 估计 ， 耗 时 也 仅 为 MHM 耗 
时 的 约 1/2 以 下 。 因 此 出 于 效率 的 考虑 ，CSRI 是 较 好 的 选择 。 


从 识别 情况 来 看 ， 当 数据 中 含有 不 努力 作答 时 ，CSRI RY 


I 出 的 不 努力 作答 比例 相对 较 


mo H, HERR (TPR) 也 基本 大 于 MHM。 在 大 部 分 情况 下 ，MHM 的 TPR 甚至 
小 于 OSR 和 CSR， 尤 其 在 dgz 小 的 情况 下 劣势 更 加 明显 。 这 可 能 是 由 于 此 时 两 种 作答 反应 


时 差异 小 ， 该 模型 很 难 根 据 反 应 时 特征 准确 区 分 4 


这 两 个 类 别 。 例如， 有 时 估计 得 到 的 不 努 


力作 答 反 应 时 分 布 的 均值 (us.)〉 MERE Coe) Heh altin, Hr = 40%，XA7?07 高 drr 小 
时 ，30 次 重复 得 到 平均 估计 值 A .= 一 1.14，6. = 0.44)， 那 么 基于 不 努力 作答 反应 时 模型 的 


假设 ， 就 可 能 只 找 出 那些 反应 时 极端 短 的 作答 而 遗漏 了 大 部 分 反应 时 相对 较 长 的 不 努力 作 


答 。 而 CSRI 所 基于 的 残 差 是 根据 题目 参数 和 速度 计算 出 的 ， 即 使 实际 反应 时 相对 较 长 ， 
果 速 度 较 慢 ， 仍 能 够 得 到 较 小 的 残 差 从 而 被 识别 为 不 努力 作答 。 总 的 来 看 ，MHM 在 识别 


确 性 上 依赖 于 数据 产生 的 模型 和 两 种 作答 之 间 的 差异 , 当 数 据 产生 的 模型 符合 该 方法 假设 日 


两 种 作答 反应 时 差异 大 时 ， 该 方法 表现 较 好 ， 而 CSRI 表现 相对 稳定 。 而 CSRI 在 大 部 分 条 


件 下 错误 识别 率 较 高 ， 说 明 该 方法 存在 超 识别 问题 。 在 本 研究 中 ， 该 方法 FDR 较 大 也 未 
成 参数 估计 误差 的 增加 , 这 可 能 是 因为 参数 估计 时 将 作答 层面 的 不 努力 作答 替换 为 缺失 ， 
未 造成 样本 量 明 显 减 少 。 并 且 , 本 研究 识别 出 的 不 努力 作答 比例 整体 不 高 。 根 据 Rose(2013 
的 研究 结果 ,无论 缺 失 机 制 如 何 ， 当 整体 数据 中 的 缺失 比例 在 30% 以 下 时 ,采用 忽略 的 方 
得 到 的 参数 估计 结果 是 具有 稳健 性 的 。 因 此 可 以 推断 ， 如 果 CSRI 识别 出 的 不 努力 作答 比 
达到 30% 以 上 , 超 识 别 问题 可 能 带 来 一 定 程度 的 参数 估计 误差 , 此 时 选用 该 方法 需要 尤其 
慎 。 

从 参数 估计 情况 来 看 ，CSRI 的 结果 整体 上 接近 或 优 于 MHM, 在 dar 小 或 者 产生 数据 
模型 不 符合 MHM 假设 的 情况 下 , 前 者 的 优势 更 为 明显 , 这 与 混合 多 层 模 型 具有 强 假设 的 
限 是 有 关 的 。 此 外 ，CSRI 在 参数 估计 方面 的 缺陷 主要 是 在 一 些 条 件 下 存在 一 定 程度 的 超 
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别 问题 ， 删 除了 过 多 反应 时 短 的 作答 后 ， 造 成 反应 时 分 布 相对 集中 ， 方 差 变 小 ， 时 间 区 分 度 


被 高 估 。 此 外 ， 由 于 不 努力 作答 严重 性 是 影响 参数 估计 准确 性 的 重要 因素 ， 为 进一步 探讨 


不 


努力 作答 严重 性 对 各 处 理 方法 的 影响 ， 基 于 已 有 模拟 研究 ， 在 模拟 研究 的 情境 1 中 ， 固 定 r 


=40%, derNK, 增加 了 不 努力 作答 严重 性 的 比例 的 水 平 ， 形成 无 不 努力 作答 ,不 努力 作 


RE 
Š] 


严重 性 低 Cr” ~ U(0,0.25)), P Crt” ~ U(0.25,0.5)), 高 (x?0%~ U(0.5,0.75)) 共 四 个 条 


件 。 进一步 比较 各 条 件 下 各 方法 得 到 的 参数 估计 值 RMSE。 结 果 发 现 ,总 的 来 说 ， 随 着 不 努 


力作 答 严重 性 增加 ，OSR 和 CSR 得 到 的 参数 估计 值 RMSE 增加 ， 而 CSRI 和 MHM 得 到 
RMSE 基本 稳定 ， 它 们 和 另外 两 种 方法 的 差异 逐渐 增 大 。 因 此 ， 当 不 努力 作答 严重 性 为 中 
高 时 ， 建 议 选 用 CSRI 和 MHM， 尤 其 当 严 重 性 为 高 时 这 两 种 方法 的 优势 更 强 。 


6.2 方法 总 结 和 建议 


的 
或 


标准 化 残 差 系 列 方法 和 MHM 从 思路 上 都 假设 , 如 果 存 在 异常 作答 , 整个 作答 反应 和 反 
应 时 都 呈现 出 混合 两 类 模式 的 特点 。 但是, 它们 处 理 两 类 作 管 模式 的 思路 不 同 。 标 准 化 残 差 
系列 方法 的 主要 思想 是 将 整个 反应 时 残 差分 布 中 极端 小 的 值 所 对 应 的 作答 识别 为 不 努力 作 


答 。 这 类 似 于 假设 检验 的 思路 : 当 整 个 分 布 中 极端 的 数值 仍 属 于 这 个 分 布 时 ， 判 断 它 们 不 


E 


于 这 个 分 布 而 犯错 的 概率 是 非常 小 的 ， 因 此 更 有 理由 相信 这 些 极端 的 数值 属于 另 一 个 分 布 
(不 努力 作答 的 反应 时 分 布 )。 然 而 大 量 不 努力 作答 会 造成 参数 估计 的 偏差 ， 进 而 带 来 标准 
化 反应 时 残 差 的 偏差 ， 造 成 残 差 不 一 定 服从 标准 正 态 分 布 ， 严 重 影响 该 方法 的 表现 。 因 此 ， 
CSR 在 OSR 基础 上 ， 使 用 了 筛选 努力 作答 群体 估计 题目 参数 ， 固 定 参 数 并 和 欠 代 净化 这 两 个 
策略 ， 在 一 定 程 度 上 提高 了 识别 准确 性 (Liu & Liu, 2021). MHM 的 基本 思想 在 于 用 平等 的 
视角 对 待 两 类 作答 模式 ， 将 作答 反应 的 正确 概率 、 反 应 时 分 布 ， 都 视 作 两 类 模式 的 混合 。 这 
种 思路 具有 一 定 灵 活性 : 一 是 在 数据 中 存在 不 努力 作答 的 情况 下 , 两 类 作答 分 别 对 各 自 的 模 
型 参数 提供 信息 , 不 会 出 现 传统 模型 参数 估计 误差 随 不 努力 作答 比例 增加 而 增 大 的 现象 ; 二 
是 从 理论 上 说 该 模型 也 能 够 处 理 数据 中 不 存在 不 努力 作答 的 情况 , 因为 此 时 相当 于 每 个 作答 
的 潜 类 别 都 相同 。 但是, 该 方法 包含 了 强 假设 ,在 其 不 能 被 满足 的 情况 下 结果 可 能 会 存在 一 
定 偏差 。 

总 的 来 说 ， 两 类 方法 的 特点 如 表 10 所 示 。 


表 10 研究 中 比较 的 四 种 方法 特点 小 结 
标准 化 残 差 系 列 方法 


比较 指标 MHM 
aa OSR CSR CSRI 
a 作答 分 类 参数 不 易 
- WESEN 全 部 收敛 全 部 收敛 全 部 收敛 on 
所 需 时 间 短 短 较 短 fe 
正确 识别 率 不 如 CSRI 不 如 CSRI 相对 最 好 不 如 CSRI 
错误 识别 率 相对 较 大 相对 较 大 相对 较 大 最 低 
相对 较 好 ， 但 部 ”在 数据 符合 其 假设 


分 条 件 下 对 时 间 ”是 E Z J A F 

参数 估计 准确 性 不 如 CSRI 不 如 CSRI ets eee tek 

人 XBW RAE ÆN NN y 
O 较 大 好 

不 努力 作答 严重 性 

saan 不 努力 作答 严重 ”不 努力 作答 严重 ”不 努力 作答 严重 ”高 或 中 , 产生 数据 符 

aii 性 低 性 低 性 高 或 中 合 MHM 假设 , 两 种 


作答 反应 时 差异 大 

根据 各 方法 特点 , 建议 在 实际 应 用 中 先 结合 每 道 题目 上 被 试 反应 时 的 分 布 特征 , 以 及 测 
验 是 低 利害 还 是 高 利害 测验 , 预 判 不 努力 作答 的 严重 性 程度 。 如果 严 重 性 很 低 甚至 可 能 没有 
不 努力 作答 , 出 于 效率 考虑 可 以 选用 最 简单 的 OSR。 如 果 严 重 性 较 低 ,可 以 选用 标准 化 残 差 
系列 方法 或 MHM。 如 果 严 重 性 较 高 ， 可 以 首选 CSRI， 但 如 果 应 用 该 方法 后 发 现 识别 出 的 
不 努力 作答 比例 较 高 (i.e., >30%)， 可 以 选用 MHM. 


6.3 未 来 研究 展望 


本 研究 也 具有 一 定 的 局 限 性 , 未 来 研究 可 以 从 以 下 三 个 方面 加 以 改进 。 首 先 , 尽 
整体 表现 较 好 , 但 仍 存在 一 定 缺陷 , 这 可 能 是 由 于 该 方法 的 超 识别 问题 且 直 接 将 不 努力 作答 
处 理 为 缺失 .未 来 研究 可 以 考虑 对 该 方法 采用 更 加 严格 的 残 差 阔 值 或 对 反应 时 模型 采用 稳健 
的 估计 方法 (Hong et al., 2021)。 稳 健 的 估计 方法 可 以 在 估计 反应 时 模型 参数 时 ， 对 不 努力 作 
答 赋予 较 低 的 权重 , 应 当 能 从 一 定 程 度 上 优化 时 间 区 分 度 的 估计 结果 .其 次 , 模拟 研究 发 现 ， 
当 不 努力 作答 严重 性 较 低 时 ， 选 用 OSR 和 CSR 更 为 简便 高 效 。 而 当 不 努力 作答 严重 性 较 高 
时 ，CSRI 和 MHM 才 表 现 出 较 大 优势 。 另 外 ， 当 数据 不 符合 MHM 的 假设 时 也 不 应 选择 该 
方法 。 然 而 目前 ， 还 没有 方法 能 检验 实际 数据 是 否 符合 该 模型 假设 。 因 此 ， 从 提高 方法 使 用 
效率 的 角度 考虑 , 未 来 研究 可 以 基于 一 些 不 含 强 假设 方法 的 初步 识别 结果 ,尝试 构建 一 些 指 
标 ， 用 于 测量 整个 数据 中 不 努力 作答 严重 程度 ， 或 检验 数据 是 否 符合 MHM 假设 ， 从 而 指导 
实践 研究 者 根据 指标 选择 合适 的 方法 。 最 后 ， 针 对 MHM 估计 效率 不 高 的 问题 ， 未 来 研究 可 
以 考虑 将 固定 参数 的 策略 应 用 于 MHM F, 第 一 步 筛 选 努 力作 答 群 体 并 估计 题目 参数 ,第 二 
步 将 题目 参数 固定 ， 对 其 他 参数 进行 条 件 估 计 。 经 初步 试验 ， 该 策略 能 将 估计 时 间 缩 短 到 原 


来 的 一 半 以 下 。 
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7. 结论 


本 研究 得 出 的 主要 结论 如 下 : 

D 当 不 努力 作答 严重 性 较 低 时 ， 标 准 化 残 差 系列 方法 和 MHM 在 参数 估计 准确 
面 的 表现 非常 接近 。 

(2) 当 不 努力 作答 严重 性 较 高 时 ，CSRI 在 识别 准确 性 和 参数 估计 准确 性 方面 的 表现 基 
本 接近 或 优 于 MHM， 并 且 ， 不 存在 参数 估计 收敛 的 问题 ， 具 有 更 高 的 效率 ， 在 不 同情 境 下 
具有 更 好 的 稳健 性 ， 在 实际 研究 中 可 以 作为 首选 的 方法 。 

(3) MHM 的 表现 更 依赖 于 数据 的 具体 情况 ， 仪 在 数据 符合 其 假设 且 两 种 作答 反应 时 
差异 大 的 条 件 下 有 较 好 表现 , 并 且 该 方法 对 于 作答 分 类 参数 的 估计 存在 不 易 收敛 的 问题 , 识 
别 准确 性 普遍 较 低 。 
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Abstract 

Assessment datasets contaminated by non-effortful responses may lead to serious consequences if 
not handled appropriately. Previous research has proposed two different strategies: down-weighting 
and accommodating. Down-weighting tries to limit the influence of aberrant responses on parameter 
estimation by reducing their weight. The extreme form of down-weighting is the detection and 
removal of irregular responses and response times (RTs). The standard residual-based methods, 
including the recently developed residual method using an iterative purification process, can be used 
to detect non-effortful responses in the framework of down-weighting. In accommodating, on the 
other hand, one tries to extend a model in order to account for the contaminations directly. This boils 
down to a mixture hierarchical model (MHM) for responses and RTs. However, to the authors’ 
knowledge, few studies have compared standard residual methods and MHM under different 
simulation conditions. It is unknown which method should be applied in different situations. 
Meanwhile, MHM has strong assumptions for different types of responses. It would be valuable to 
examine the performance of the method when the assumptions are violated. The purpose of this 
study is to compare standard residual methods and MHM under a fully crossed simulation design. 
In addition, specific recommendations for their applications are provided. 

The simulation study included two scenarios. In simulation scenario I, data were generated 
under the assumptions of MHM. In simulation scenario II, the assumptions of MHM concerning 
non-effortful responses and RTs were both violated. Simulation scenario I had three manipulated 
factors. (1) Non-effort prevalence (7), which was the proportion of individuals with non-effortful 
responses. It had three levels: 0%, 20% and 40%. (2) Non-effort severity (77/°°"), which was the 
proportion of non-effortful responses for each non-effortful individual. It varied between two levels: 


low and high. When mr?” was low, nr” was generated from U (0, 0.25); while when 7°” was 


high, 7°” was generated from U (0.5, 0.75), where “U” denoted a uniform distribution. (3) 
Difference between RTs of non-effortful and effortful responses (dgr). The difference between RTs 
from two groups, dpr, had two levels, small and large. The logarithm of RTs of non-effortful 
responses were generated from normal distribution N (u,0.57), where p = —1 when dgr was 
small, 4 = 一 2 when dp, was large. For generating the non-effortful responses, we followed 
Wang, Xu and Shang (2018), with the probability of a correct response gj; setting at 0.25 for all 
non-effortful responses. In simulation scenario II, only the first two factors were considered. Non- 
effortful RTs were generated from a uniform distribution with a lower bound of exp(—5) and upper 
bound being the 5th percentile of RT on item j with t = 0. The probability of a correct response for 
non-effortful responses was dependent on the ability level of each examinee. In all the conditions, 
sample size was fixed at J = 2,000 and test length was fixed at J = 30. For each condition, 30 
replications were generated. For effortful responses, Responses and RTs were simulated from van der 
Linden’s (2007) hierarchical model. Item parameters were generated with aj~U(1, 2.5), 
bj~N(O,1), a@j~U(A.5, 2.5), B;~U(—0.2, 0.2). For simulees, the person parameters (0;,T;) were 


generated from a bivariate normal distribution with the mean vector of p = (00) and the 


covariance matrix of X = Heel Four methods were compared under each condition: the 


Fe 0. 


original standard residual method (OSR), conditional estimate standard residual (CSR), conditional 
estimate with fixed item parameters standard residual method using iterative purifying procedure 
(CSRI), and MHM. These methods were implemented in R and JAGS using a Bayesian MCMC 
sampling method for parameter calibration. Finally, these methods were evaluated in terms of 
convergence rate, detection accuracy and parameter recovery. 

The results are presented as following. First of all, MHM suffered from convergence issues, 
especially for the latent variable indicating non-effortful responses. On the contrary, all the standard 
residual methods achieved convergence successfully. The convergence issues were more serious in 
simulation scenario II. Secondly, when all the items were assumed to have effortful responses, the 
false positive rate (FPR) of MHM was 0. Although the standard residual methods had FPR around 
5% (the nominal level), the accuracy of parameter estimates was similar for all these methods. Third, 
when data were contaminated by non-effortful responses, CSRI had higher true positive rate (TPR) 


almost in all the conditions. MHM showed lower TPR but lower false discovery rate (FDR), 


exhibiting even lower TPR in simulation scenario II. When 17°” was high, CSRI and MHM 
showed more advantages over the other methods in terms of parameter recovery. However, when 
m°” was high and drr was small, MHM generally had higher RMSE than CSRI. Compared to 
simulation scenario I, MHM performed worse in simulation scenario II. The only problem CSRI 
needed to deal with was its overestimation of time discrimination parameter across all the conditions 
except for when 2=40% and dp, was large. In a real data example, all the methods were applied 
to a dataset collected for program assessment and accountability purposes from undergraduates at a 
mid-sized southeastern university in USA. Evidences from convergence validity showed that CSRI 
and MHM might detect non-effortful responses more accurately and obtain more precise parameter 
estimates for this data. 

In conclusion, CSRI generally performed better than the other methods across all the conditions. 
It is highly recommended to use this method in practice because: (1) It showed acceptable FPR and 
fairly accurate parameter estimates even when all responses were effortful; (2) It was free of strong 
assumptions, which meant that it would be robust under various situations; (3) It showed most 
advantages when 77'°" was high in terms of the detection of non-effortful responses and the 
improvement of the parameter estimation. In order to improve the estimation of time discrimination 
parameter in CSRI, the robust estimation methods that down-weight flagged response patterns can 
be used as an alternative to directly removing non-effortful responses (i.e., the method in the current 
study). MHM can perform well when all its assumptions are met and 77j'°" is high, der is large. 
However, some parameters have difficulty in convergence under MHM, which will limit its 
application in practice. 
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